emmintrin.h

작성자

익명

작성일

2025.12.20

조회수

버전

emmintrin.h

emmintrin.h는 C/C++ 프로그래밍에서 SSE(Streaming SIMD Extensions) 명령어 세트를 사용하기 위한 핵심 헤더 파일 중 하나입니다. 이 헤더는 컴파일러가 SSE 기능을 지원할 수 있도록 제공되며, 특히 Intel과 호환되는 x86/x64 아키텍처에서 벡터 연산을 수행할 때 필수적인 역할을 합니다. 이 문서에서는 emmintrin.h의 기능, 사용법, 주요 데이터 타입 및 함수, 그리고 관련된 최적화 기법에 대해 다룹니다.

개요

emmintrin.h는 Intel C++ Compiler, GCC, Clang, MSVC 등 주요 C/C++ 컴파일러에서 제공하는 시스템 헤더 파일로, SSE2(Streaming SIMD Extensions 2) 기능을 사용할 수 있도록 설계되었습니다. SSE2는 1999년 Intel Pentium 4 프로세서를 통해 도입된 확장 명령어 세트로, 128비트 벡터 연산을 통해 정수 및 부동소수점 연산의 성능을 크게 향상시킵니다.

이 헤더는 단독으로 사용되기보다는, 보통 <[xmmintrin.h](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%ED%97%A4%EB%8D%94%20%ED%8C%8C%EC%9D%BC/xmmintrin.h)>(SSE)와 함께 사용되며, [__m128i](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EA%B5%AC%EC%A1%B0/__m128i), [__m128d](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%8D%B0%EC%9D%B4%ED%84%B0%20%EA%B5%AC%EC%A1%B0/__m128d)와 같은 특수한 벡터 데이터 타입과 [_mm_add_epi32](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%82%B4%EC%9E%A5%20%ED%95%A8%EC%88%98/_mm_add_epi32), [_mm_load_si128](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%82%B4%EC%9E%A5%20%ED%95%A8%EC%88%98/_mm_load_si128)과 같은 내장 함수(intrinsics)를 정의합니다.

주요 기능

emmintrin.h는 다음과 같은 기능을 제공합니다:

128비트 벡터를 이용한 정수 연산 (8비트, 16비트, 32비트, 64비트 정수)
64비트 배정밀도 부동소수점 연산 (double형, 2개의 double을 동시에 처리)
메모리 로드/스토어 연산 (정렬/비정렬 접근)
데이터 캐스팅 및 변환
논리 연산 및 비트 조작
조건 분기 최소화를 위한 선택 연산 (조건부 이동 흉내)

이러한 기능들은 고성능 컴퓨팅, 멀티미디어 처리, 암호화, 머신러닝 등에서 데이터 병렬성을 극대화하는 데 유용합니다.

주요 데이터 타입

emmintrin.h는 SIMD(Single Instruction, Multiple Data) 연산을 위한 특수한 데이터 타입을 정의합니다. 주요 타입은 다음과 같습니다:

데이터 타입	설명
`__m128i`	128비트 정수 벡터. 16개의 char, 8개의 short, 4개의 int, 2개의 long long 등으로 해석 가능
`__m128d`	128비트 벡터로, 2개의 64비트 배정밀도 부동소수점 수(double)를 저장
`__m128`	이는 `xmmintrin.h`에서 정의되며, 단정밀도(float) 4개를 저장 (SSE 기반)

💡 __m128i는 단순한 정수 배열이 아니라, SIMD 레지스터와 직접 매핑되는 특수한 타입입니다. 일반 포인터로 직접 접근하는 것은 비권장되며, [_mm_store_si128](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%82%B4%EC%9E%A5%20%ED%95%A8%EC%88%98/_mm_store_si128), [_mm_loadu_si128](/doc/%EA%B8%B0%EC%88%A0/%ED%94%84%EB%A1%9C%EA%B7%B8%EB%9E%98%EB%B0%8D/%EB%82%B4%EC%9E%A5%20%ED%95%A8%EC%88%98/_mm_loadu_si128) 등의 함수를 사용해야 합니다.

주요 함수 (Intrinsics)

다음은 emmintrin.h에서 제공하는 대표적인 내장 함수들입니다:

1. 산술 연산

__m128i _mm_add_epi32(__m128i a, __m128i b);  // 32비트 정수 4개를 각각 더함
__m128i _mm_sub_epi16(__m128i a, __m128i b);  // 16비트 정수 8개를 각각 뺌
__m128d _mm_mul_pd(__m128d a, __m128d b);     // double 2개를 곱함

2. 메모리 접근

__m128i _mm_load_si128(__m128i const* mem_addr);    // 16바이트 정렬된 메모리에서 로드
__m128i _mm_loadu_si128(__m128i const* mem_addr);   // 정렬 여부 상관없이 로드
void _mm_store_si128(__m128i* mem_addr, __m128i a); // 정렬된 주소에 저장

3. 비트 연산

__m128i _mm_and_si128(__m128i a, __m128i b);  // 비트 AND
__m128i _mm_or_si128(__m128i a, __m128i b);   // 비트 OR
__m128i _mm_xor_si128(__m128i a, __m128i b);  // 비트 XOR
__m128i _mm_slli_epi32(__m128i a, int count); // 32비트 정수 4개를 왼쪽 시프트

4. 비교 및 조건

__m128i _mm_cmpeq_epi32(__m128i a, __m128i b); // 32비트 정수 각각 비교 (같으면 0xFFFFFFFF, 아니면 0)

사용 예시

다음은 두 정수 배열의 요소별 덧셈을 emmintrin.h를 사용해 최적화한 예제입니다:

#include <emmintrin.h>
#include <stdio.h>

void vector_add(int* a, int* b, int* result, int n) {
    int i = 0;
    // 128비트 = 4개의 32비트 정수 처리 가능
    for (; i <= n - 4; i += 4) {
        __m128i va = _mm_loadu_si128((__m128i*)&a[i]);
        __m128i vb = _mm_loadu_si128((__m128i*)&b[i]);
        __m128i vr = _mm_add_epi32(va, vb);
        _mm_storeu_si128((__m128i*)&result[i], vr);
    }
    // 나머지 요소 처리
    for (; i < n; i++) {
        result[i] = a[i] + b[i];
    }
}

이 코드는 반복문 내에서 4개의 정수를 동시에 처리함으로써, 일반적인 스칼라 연산보다 최대 4배의 성능 향상을 기대할 수 있습니다.

컴파일러 및 아키텍처 지원

emmintrin.h는 대부분의 현대 x86/x64 컴파일러에서 기본 제공되지만, SSE2를 활성화하려면 다음과 같은 컴파일 플래그가 필요할 수 있습니다:

GCC/Clang: -msse2
MSVC: /arch:SSE2 (기본으로 포함된 경우 많음)

또한, 대상 프로세서가 SSE2를 지원해야 하며, Pentium 4 이후 대부분의 CPU는 이를 지원합니다.

참고 자료 및 관련 문서

Intel Intrinsics Guide – Intel 공식 내장 함수 문서
GCC Vector Extensions
MSDN: x64 Architecture and SIMD
Wikipedia: SSE2

⚠️ 주의: emmintrin.h는 하드웨어 기능에 직접 접근하므로, 잘못 사용 시 크래시나 예기치 않은 동작을 유발할 수 있습니다. 특히 메모리 정렬 문제에 주의해야 합니다.

📝 마크다운 원본

이 문서의 마크다운 원본 내용입니다.

# emmintrin.h

`emmintrin.h`는 C/C++ 프로그래밍에서 **SSE**(Streaming SIMD Extensions) 명령어 세트를 사용하기 위한 핵심 헤더 파일 중 하나입니다. 이 헤더는 컴파일러가 SSE 기능을 지원할 수 있도록 제공되며, 특히 Intel과 호환되는 x86/x64 아키텍처에서 벡터 연산을 수행할 때 필수적인 역할을 합니다. 이 문서에서는 `emmintrin.h`의 기능, 사용법, 주요 데이터 타입 및 함수, 그리고 관련된 최적화 기법에 대해 다룹니다.

---

## 개요

`emmintrin.h`는 **Intel C++ Compiler**, **GCC**, **Clang**, **MSVC** 등 주요 C/C++ 컴파일러에서 제공하는 시스템 헤더 파일로, **SSE2**(Streaming SIMD Extensions 2) 기능을 사용할 수 있도록 설계되었습니다. SSE2는 1999년 Intel Pentium 4 프로세서를 통해 도입된 확장 명령어 세트로, 128비트 벡터 연산을 통해 정수 및 부동소수점 연산의 성능을 크게 향상시킵니다.

이 헤더는 단독으로 사용되기보다는, 보통 `<xmmintrin.h>`(SSE)와 함께 사용되며, `__m128i`, `__m128d`와 같은 특수한 벡터 데이터 타입과 `_mm_add_epi32`, `_mm_load_si128`과 같은 내장 함수(intrinsics)를 정의합니다.

---

## 주요 기능

`emmintrin.h`는 다음과 같은 기능을 제공합니다:

- 128비트 벡터를 이용한 정수 연산 (8비트, 16비트, 32비트, 64비트 정수)
- 64비트 배정밀도 부동소수점 연산 (double형, 2개의 double을 동시에 처리)
- 메모리 로드/스토어 연산 (정렬/비정렬 접근)
- 데이터 캐스팅 및 변환
- 논리 연산 및 비트 조작
- 조건 분기 최소화를 위한 선택 연산 (조건부 이동 흉내)

이러한 기능들은 고성능 컴퓨팅, 멀티미디어 처리, 암호화, 머신러닝 등에서 데이터 병렬성을 극대화하는 데 유용합니다.

---

## 주요 데이터 타입

`emmintrin.h`는 SIMD(Single Instruction, Multiple Data) 연산을 위한 특수한 데이터 타입을 정의합니다. 주요 타입은 다음과 같습니다:

| 데이터 타입 | 설명 |
|-------------|------|
| `__m128i`   | 128비트 정수 벡터. 16개의 char, 8개의 short, 4개의 int, 2개의 long long 등으로 해석 가능 |
| `__m128d`   | 128비트 벡터로, 2개의 64비트 배정밀도 부동소수점 수(double)를 저장 |
| `__m128`    | 이는 `xmmintrin.h`에서 정의되며, 단정밀도(float) 4개를 저장 (SSE 기반) |

> 💡 `__m128i`는 단순한 정수 배열이 아니라, SIMD 레지스터와 직접 매핑되는 특수한 타입입니다. 일반 포인터로 직접 접근하는 것은 비권장되며, `_mm_store_si128`, `_mm_loadu_si128` 등의 함수를 사용해야 합니다.

---

## 주요 함수 (Intrinsics)

다음은 `emmintrin.h`에서 제공하는 대표적인 내장 함수들입니다:

### 1. 산술 연산
```c
__m128i _mm_add_epi32(__m128i a, __m128i b);  // 32비트 정수 4개를 각각 더함
__m128i _mm_sub_epi16(__m128i a, __m128i b);  // 16비트 정수 8개를 각각 뺌
__m128d _mm_mul_pd(__m128d a, __m128d b);     // double 2개를 곱함
```

### 2. 메모리 접근
```c
__m128i _mm_load_si128(__m128i const* mem_addr);    // 16바이트 정렬된 메모리에서 로드
__m128i _mm_loadu_si128(__m128i const* mem_addr);   // 정렬 여부 상관없이 로드
void _mm_store_si128(__m128i* mem_addr, __m128i a); // 정렬된 주소에 저장
```

### 3. 비트 연산
```c
__m128i _mm_and_si128(__m128i a, __m128i b);  // 비트 AND
__m128i _mm_or_si128(__m128i a, __m128i b);   // 비트 OR
__m128i _mm_xor_si128(__m128i a, __m128i b);  // 비트 XOR
__m128i _mm_slli_epi32(__m128i a, int count); // 32비트 정수 4개를 왼쪽 시프트
```

### 4. 비교 및 조건
```c
__m128i _mm_cmpeq_epi32(__m128i a, __m128i b); // 32비트 정수 각각 비교 (같으면 0xFFFFFFFF, 아니면 0)
```

---

## 사용 예시

다음은 두 정수 배열의 요소별 덧셈을 `emmintrin.h`를 사용해 최적화한 예제입니다:

```c
#include <emmintrin.h>
#include <stdio.h>

void vector_add(int* a, int* b, int* result, int n) {
    int i = 0;
    // 128비트 = 4개의 32비트 정수 처리 가능
    for (; i <= n - 4; i += 4) {
        __m128i va = _mm_loadu_si128((__m128i*)&a[i]);
        __m128i vb = _mm_loadu_si128((__m128i*)&b[i]);
        __m128i vr = _mm_add_epi32(va, vb);
        _mm_storeu_si128((__m128i*)&result[i], vr);
    }
    // 나머지 요소 처리
    for (; i < n; i++) {
        result[i] = a[i] + b[i];
    }
}
```

이 코드는 반복문 내에서 4개의 정수를 동시에 처리함으로써, 일반적인 스칼라 연산보다 최대 4배의 성능 향상을 기대할 수 있습니다.

---

## 컴파일러 및 아키텍처 지원

`emmintrin.h`는 대부분의 현대 x86/x64 컴파일러에서 기본 제공되지만, SSE2를 활성화하려면 다음과 같은 컴파일 플래그가 필요할 수 있습니다:

- **GCC/Clang**: `-msse2`
- **MSVC**: `/arch:SSE2` (기본으로 포함된 경우 많음)

또한, 대상 프로세서가 SSE2를 지원해야 하며, Pentium 4 이후 대부분의 CPU는 이를 지원합니다.

---

## 관련 헤더 파일

`emmintrin.h`는 여러 SIMD 확장 헤더 중 하나이며, 다음과 같은 관련 헤더들이 있습니다:

- `<xmmintrin.h>`: SSE (단정밀도 부동소수점, `__m128`)
- `<pmmintrin.h>`: SSE3
- `<tmmintrin.h>`: SSSE3
- `<smmintrin.h>`: SSE4.1
- `<nmmintrin.h>`: SSE4.2

SSE2는 x86-64 아키텍처의 필수 구성 요소이므로, `emmintrin.h`는 64비트 프로그래밍에서 매우 중요합니다.

---

## 참고 자료 및 관련 문서

- [Intel Intrinsics Guide](https://www.intel.com/content/www/us/en/docs/intrinsics-guide/) – Intel 공식 내장 함수 문서
- [GCC Vector Extensions](https://gcc.gnu.org/onlinedocs/gcc/Vector-Extensions.html)
- MSDN: [x64 Architecture and SIMD](https://learn.microsoft.com/en-us/cpp/intrinsics/x64-amd64-intrinsics-list)
- Wikipedia: [SSE2](https://en.wikipedia.org/wiki/SSE2)

> ⚠️ 주의: `emmintrin.h`는 하드웨어 기능에 직접 접근하므로, 잘못 사용 시 크래시나 예기치 않은 동작을 유발할 수 있습니다. 특히 메모리 정렬 문제에 주의해야 합니다.

AI 생성 콘텐츠 안내

이 문서는 AI 모델(qwen-3-235b-a22b-instruct-2507)에 의해 생성된 콘텐츠입니다.

주의사항: AI가 생성한 내용은 부정확하거나 편향된 정보를 포함할 수 있습니다. 중요한 결정을 내리기 전에 반드시 신뢰할 수 있는 출처를 통해 정보를 확인하시기 바랍니다.

위키너와나

emmintrin.h

emmintrin.h

개요

주요 기능

주요 데이터 타입

주요 함수 (Intrinsics)

1. 산술 연산

2. 메모리 접근

3. 비트 연산

4. 비교 및 조건

사용 예시

컴파일러 및 아키텍처 지원

관련 헤더 파일

참고 자료 및 관련 문서

📝 마크다운 원본

🤔 AI의 사고 과정

이 AI 생성 콘텐츠가 도움이 되었나요?